4 Daten verbildlichen
4.1 Lernsteuerung
4.1.1 Standort im Lernpfad
Abb. Abbildung 4.1 zeigt den Standort dieses Kapitels im Lernpfad und gibt damit einen Überblick über das Thema dieses Kapitels im Kontext aller Kapitel.
flowchart LR
subgraph R[Rahmen]
direction LR
subgraph V[Vorbereiten]
direction TB
E[Einlesen] --> Um[Umformen]
end
subgraph M[Modellieren]
direction TB
M1[Punktmodelle] --> Vis[<font size=5>Verbildlichen]
Vis --> U[Ungewissheit]
U --> G[Geradenmodelle]
end
subgraph N[Nachbereiten]
direction TB
D[Diskutieren]
end
V --> M
M --> N
end
4.1.2 Lernziele
- Sie können erläutern, wann und wozu das Visualisieren statistischer Inhalte sinnvoll ist.
- Sie kennen typische Arte von Datendiagrammen.
- Sie können typische Datendiagramme mit R visualisieren.
- Sie können zentrale Ergebnisse aus Datendiagrammen herauslesen.
4.1.3 Benötigte R-Pakete
4.2 Wozu das alles?
4.2.1 Ein Dino sagt mehr als 1000 Worte
Es heißt, ein Bild sage mehr als 1000 Worte. Schon richtig, aber ein Dinosaurier sagt auch mehr als 1000 Worte, s. Abbildung 4.2.

In Abbildung 4.2 sieht man zwei verschiedene “Bilder”, also Datensätze: einmal einen Dino und einmal einen Kreis. Obwohl die Bilder grundverschiedene sind, sind die zentralen statistischen Kennwerte (praktisch) identisch. Die Idee stammt von Anscombe (1973). Hier ist ein weiteres Beispiel (von Anscombe), das zeigt, dass Bilder mehr zeigen als typische Statistiken es vermögen.
Unter visueller Cortex ist sehr leistungsfähig. Wir können ohne Mühe eine große Anzahl an Informationen aufnehmen und parallel verarbeiten. Aus diesem Grund sind Datendiagramme eine effektive und einfache Art, aus Daten Erkenntnisse zu ziehen.
Nutzen Sie Datendiagramme umfassend; sie sind einfach zu verstehen und doch sehr mächtig.
4.2.2 Datendiagramm
Ein Datendiagramm (kurz: Diagramm) ist ein Diagramm, das Daten und Statistiken zeigt, mit dem Zweck, Erkenntnisse daraus zu ziehen.
4.2.3 Aus der Forschung: Ein aufwändiges (und ansprechendes) Datendiagramm
Hier finden Sie ein Beispiel für ein Datendiagramm, das mit R erzeugt wurde (Scherer u. a. 2019).
4.2.4 Ein Bild hat nicht so viele Dimensionen
Abbildung 4.3 zeigt ein Bild mit mehreren Variablen. Wie man (nicht) sieht, wird es langsam unübersichtlich. Offenbar kann man in einem Bild nicht beliebig viele Variablen reinquetschen. Die “Dimensionalität” eines Diagramms hat ihre Grenzen, vielleicht bei 4-6 Variablen.

Möchten wir den Zusammenhang von vielen Variablen, z.B. mehr als 5, verstehen, kommen wir mit Bildern nicht weiter. Dann brauchen wir andere Werkzeuge: statistics to the rescue.
Bei klaren Zusammenhängen und wenig Variablen braucht man keine (aufwändige) Statistik. Ein Bild (Datendiagramm) ist dann (oft) ausreichend. Man könnte sagen, dass es Statistik nur deshalb gibt, weil unser Auge mit mehr als ca. 4-6 Variablen nicht gleichzeitig umgehen kann.
Wie viele Variablen sind in Abbildung 4.3 dargestellt?1
Eine weitere Möglichkeit, mehr Variablen in einem Diagramm unterzubringen, ist die “Flatlands” zu verlassen, also von 2D auf 3D zu wechseln, s. Abbildung 4.4.
Etwas weniger spektakulär, aber näher an der Datenanalyse ist Abbildung 4.5.
Leider ist Abbildung 4.5 nicht sehr aufschlussreich. Daraus kann man zweierlei lernen:
- Nicht jedes Datendiagramm (ist auf Anhieb) informativ.
- Die Daten müssen ggf. erst umgeformt werden.
Es gibt einen Extremwert im Diagramm. Finden Sie ihn?
4.3 Nomenklatur von Datendiagrammen
Tabelle 4.1 zeigt eine - sehr kurze Nomenklatur - an Datendigrammen.2
Wir arbeiten hier mit dem Datensatz mariokart. Hilfe bzw. ein Codebook finden Sie hier.
4.3.1 Verteilung: nominale Variable
4.3.2 Verteilung
Eine (Häufigkeits-)Verteilung einer Variablen \(X\) schlüsselt auf, wie häufig jede Ausprägung von \(X\) ist.\(\square\)
Tabelle 4.2 zeigt die Häufigkeitsverteilung von cond aus dem Datensatz mariokart. Die Variable hat 5 Ausprägungen; z.b. kommt die Ausprägung new 59 mal vor.\(\square\)
Zugegeben, das Datendiagramm von cond ist nicht so aufregend, s. Abbildung 4.6. Wie man sieht, besteht so ein Diagramm als Balken, daher heißt es Balkendiagramm. Man kann so ein Diagramm um 90° drehen, keine Ausrichtung ist unbedingt besser als die andere.
Definition 4.1 (Balkendiagramm) Ein Balkendiagramm eignet sich, um Häufigkeiten darzustellen

condEs gibt viele Methoden, sich mit R ein Balkendiagramm ausgeben zu lassen. Eine einfache, komfortable ist die mit dem Paket DataExplorer, s. Abbildung 4.7.
Zuerst importieren wir die Daten und starten das R-Paket `DataExplorer:
library(DataExplorer) # installieren vorab nicht vergessen
mariokart <- read.csv("https://vincentarelbundock.github.io/Rdatasets/csv/openintro/mariokart.csv")Die Syntax ist in Listing 4.2 abgedruckt. Übersetzen wir die Syntax ins Deutsche:
Nimm den Datensatz mariokart *und dann*
wähle die Spalte cond *und dann*
zeichne ein Balkendiagramm.
4.3.3 Spalten wählen für das Balkendiagramm
Hätten wir andere Spalten ausgewählt, so würde das Balkendiagramm die Verteilung jener Variablen zeigen. Ja, Sie können auch mehrere Variablen auf einmal auswählen. Probieren Sie das doch mal aus!

DataExplorerSo können Sie
4.3.4 Verteilung: quantitative Variable
4.3.4.1 Histogramm
Bei einer quantitativen Variablen mit vielen Ausprägungen wäre ein Balkendiagramm nicht so aussagekräftig, s. Abbildung 4.8. Es gibt einfach zu viele Ausprägungen.

total_prDie Lösung: Wir reduzieren die Anzahl der Ausprägungen, in dem wir auf ganze Dollar runden. Oder, um noch weniger Ausprägungen zu bekommen, können wir einfach Gruppen definieren, z.B.
- Gruppe 1: 0-5 Dollar
- Gruppe 2: 6-10 Dollar
- Gruppe 2: 11-15 Dollar …
In Abbildung 4.9 sind z.B. die Ausprägungen des Verkaufspreis (total_pr) in in Gruppen der Breite von 5 Dollar aufgeteilt worden. Zusätzlich sind noch die einzelnen Werte als schwarze Punkte gezeigt.

total_prDefinition 4.2 (Histogramm) Ein Histogramm ist ein Diagramm zur Darstellung der Häufigkeitsverteilung einer quantitativen Variablen. Die Daten werden in Gruppen (Klassen) eingeteilt, die dann durch einen Balken dargestellt sind. Die Höhe der Balken zeigt die Häufigkeit der Daten in dieser Gruppe/in diesem Balken3.
Es gibt keine klare Regel, wie viele Balken in einem Histogramm stehen sollten. Nur: Es sollten nicht sehr viele und nicht sehr wenig sein, s. Abbildung 4.10 links bzw. Abbildung 4.10, rechts.


Zur Erstellung eines Histogramms können Sie die Syntax Listing 4.3 nützen, vlg. ?fig-fig-de-hist-density, links.
Listing 4.3: Syntax zur Erstellung eines Histogramms


4.3.4.2 Dichtediagramm
Abbildung 4.12 fügt zu Abbildung 4.9 ein Dichtediagramm hinzu (rote Linie). Ein Dichtediagramm ähnelt einem “glattgeschmirgeltem” Histogramm.
4.3.4.3 Dichtediagramm
Ein Dichtediagramm visualisiert die Verteilung einer stetigen Variablen. Im Gegensatz zum Histogramm wird der Verlauf der Kurve geglättet, so kann Rauschen besser ausgeblendet werden.4

total_prErstellen Sie das Diagramm Abbildung 4.11, rechtes Teildiagramm!5.\(\square\)
4.3.4.4 Eigenschaften von Verteilungen
(Diagramme von) Verteilungen können symmetrisch oder schief (nicht symmetrisch) sein, s. ?fig-symm-schief.


?fig-plot-distribs zeigt verschiedene Formen von Verteilungen.
4.3.5 Normalverteilung
Eine Normalverteilung sehen Sie in ?fig-symm-schief, links. Sie hat u.a. folgende Eigenschaften:
- symmetrisch
- glockenförmig
- stetig
- eingipflig (unimodal)
- Mittelwert, Median und Modus sind identisch
Beispiele für normalverteilte Variablen sind Körpergröße von Männern oder Frauen, IQ-Werte, Prüfungsergebnisse, Messfehler, Lebensdauer von Glühbirnen, Gewichte von Brotlaiben, Milchproduktion von Kühen, Brustumfang schottischer Soldaten (Lyon 2014).
Die Normalverteilung ist von hoher Bedeutung, da diese Verteilung unter (recht häufigen) Bedingungen zwangsläufig ergeben muss. Wenn sich eine Variable als Summe mehrerer, unabhängiger, etwa gleich starker Summanden, dann kann man erwarten, dass sich diese Variable normalverteilt. Dieses Phänomen kann man gut anhand des Galton-Bretts veranschaulichen.
4.3.6 Zusammenhang: nominale Variablen
4.3.7 Beispiele für Zusammenhänge bei nominalen Variablen
- Hängt Berufserfolg (Führungskraft ja/nein) mit dem Geschlecht zusammen?
- Hängt der Beruf des Vaters mit dem Schulabschluss des Kindes (Abitur, Realschule, Mittelschule) zusammen?
- Gibt es einen Zusammenhang zwischen Automarke und politische Präferenz einer Partei? \(\square\)
Sagen wir, Sie arbeiten immer noch beim Online-Auktionshaus und Sie fragen sich, ob ein Produktfoto wohl primär bei neuwertigen Produkten beiliegt, aber nicht bei gebrauchten? Dazu betrachten Sie wieder die mariokart-Daten, s. Abbildung 4.15.


wheel und Foto in den DatenTatsächlich: Es findet sich ein Zusammenhang zwischen der Tatsache, ob dem versteigerten Produkt ein Foto bei lag und ob es neuwertig oder gebraucht war (Abbildung 4.15, links). Bei neuen Spielen war fast immer (ca 90%) ein Foto dabei. Bei gebrauchten Spiel immerhin bei gut der Hälfte der Fälle.
Anders sieht es aus für die Frage, ob ein (oder mehrere) Lenkräder dem Spiel beilagen (oder nicht) in Zusammenhang mit der Fotofrage Hier gab es fast keinen Unterschied zwischen neuen und alten Spielen, was die Frage nach “Foto des Produkts dabei” betraf (Abbildung 4.15, rechts), der Anteil betrug jeweils ca. 70%.
Anders gesagt: Unterscheiden sich die “Füllhöhe” in den Diagrammen, so gibt es einen Unterschied hinsichtlich “Foto ist dabei” zwischen den beiden Gruppen (linker vs. rechter Balken). Unterscheiden sich die Anteile in den Gruppen (neuwertige vs. gebrauchte Spiele), so spielt z.B. die Variable “Foto dabei” offenbar eine Rolle. Dann hängen Neuwertigkeit und “Foto dabei” also zusammen!
So können Sie sich in R ein gefülltes Balkendiagramm ausgeben lassen, s. Abbildung 4.16.

Gefüllte Balkendiagramme eignen sich zur Analyse eines Zusammenhangs zwischen nominalskalierten Variablen. Allerdings sollte eine der beiden Variablen nur zwei Ausprägungen aufweisen, sonst sind die Zusammenhänge nicht mehr so gut zu erkennen.
4.4 Praxisbezug
Ein, wie ich finde schlagendes Beispiel zur Stärke von Datendiagrammen ist Abbildung 4.17. Das Diagramm zeigt die Häufigkeit von Masern, vor und nach der Einführung der Impfung. Die Daten und die Idee zur Visualisierung gehen auf Panhuis u. a. (2013) zurück. Das Diagramm und weitere finden sich in ähnlicher Form imn Wall Street Journal.

4.4.1 Zusammenhang: quantitative Variablen
4.5 Vertiefung
Mehr zu DataExplorer finden Sie hier.
Eine weitere nützliche Art von Visualisierung sind Karten. So zeigt z.B. Abbildung 4.18 die Veränderung der Lebenserwartung (in Jahren) über die letzten Dekaden.

Der Quellcode der Animination ist hier zu finden.
Natürlich sind der Fantasie keine Grenzen gesetzt, so ist etwa diese Animationen ziemlich atemberaubend.